In this work, we present a new computer vision task named video object of interest segmentation (VOIS). Given a video and a target image of interest, our objective is to simultaneously segment and track all objects in the video that are relevant to the target image. This problem combines the traditional video object segmentation task with an additional image indicating the content that users are concerned with. Since no existing dataset is perfectly suitable for this new task, we specifically construct a large-scale dataset called LiveVideos, which contains 2418 pairs of target images and live videos with instance-level annotations. In addition, we propose a transformer-based method for this task. We revisit Swin Transformer and design a dual-path structure to fuse video and image features. Then, a transformer decoder is employed to generate object proposals for segmentation and tracking from the fused features. Extensive experiments on LiveVideos dataset show the superiority of our proposed method.
translated by 谷歌翻译
In this paper, the CONFIG algorithm, a simple and provably efficient constrained global optimization algorithm, is applied to optimize the closed-loop control performance of an unknown system with unmodeled constraints. Existing Gaussian process based closed-loop optimization methods, either can only guarantee local convergence (e.g., SafeOPT), or have no known optimality guarantee (e.g., constrained expected improvement) at all, whereas the recently introduced CONFIG algorithm has been proven to enjoy a theoretical global optimality guarantee. In this study, we demonstrate the effectiveness of CONFIG algorithm in the applications. The algorithm is first applied to an artificial numerical benchmark problem to corroborate its effectiveness. It is then applied to a classical constrained steady-state optimization problem of a continuous stirred-tank reactor. Simulation results show that our CONFIG algorithm can achieve performance competitive with the popular CEI (Constrained Expected Improvement) algorithm, which has no known optimality guarantee. As such, the CONFIG algorithm offers a new tool, with both a provable global optimality guarantee and competitive empirical performance, to optimize the closed-loop control performance for a system with soft unmodeled constraints. Last, but not least, the open-source code is available as a python package to facilitate future applications.
translated by 谷歌翻译
运动转移旨在将驱动视频的运动转移到源图像。当驾驶视频中的对象与源图像中的对象之间存在很大差异时,传统的单个域运动转移方法通常会产生显着的伪影。例如,合成的图像可能无法保留源图像的人类形状(参见图1(a))。为了解决这个问题,在这项工作中,我们提出了一种运动和外观适应(MAA)进行跨域运动转移的方法,在该方法中,我们将合成图像中的对象正规化,以捕获驾驶框架中对象的运动,而仍保留对象在源图像中的形状和外观。一方面,考虑合成图像和驾驶框架的对象形状可能有所不同,我们设计了一个形状不变的运动适应模块,该模块可以在两个图像中强制对象零件的角度的一致性来捕获运动信息。另一方面,我们引入了一个结构引导的外观一致性模块,旨在使合成图像的相应贴片和源图像之间的相似性正式化,而不会影响合成图像中学习的运动。我们提出的MAA模型可以通过循环重建损失以端到端的方式进行训练,并最终产生令人满意的运动转移结果(参见图1(b))。我们在人类舞蹈数据集Mixamo-Video上进行了广泛的实验,以便于时尚视频和人脸数据集vox-celeb到cufs;在这两个方面,我们的MAA模型在定量和定性上都优于现有方法。
translated by 谷歌翻译
图像动画旨在使用从驾驶视频中学到的运动来对源图像进行动画映像。当前的最新方法通常使用卷积神经网络(CNN)来预测运动信息,例如运动关键点和相应的局部变换。但是,这些基于CNN的方法并未明确对运动之间的相互作用进行建模。结果,可能会忽略重要的基础运动关系,这可能会导致生成的动画视频中产生明显的伪影。为此,我们提出了一种新方法,即运动变压器,这是基于视觉变压器构建运动估计器的首次尝试。更具体地说,我们在提出的方法中介绍了两种类型的令牌:i)由补丁特征和相应位置编码形成的图像令牌; ii)用运动信息编码的运动令牌。两种类型的令牌都被发送到视觉变压器中,以通过多头自我注意力块促进它们之间的基本相互作用。通过采用此过程,可以更好地学习运动信息以提高模型性能。然后,最终嵌入式运动令牌用于预测相应的运动关键点和局部变换。基准数据集上的广泛实验表明,我们提出的方法为最先进的基准取得了令人鼓舞的结果。我们的源代码将公开可用。
translated by 谷歌翻译
有效的全球优化是一种广泛使用的方法,用于优化昂贵的黑盒功能,例如调谐参数,设计新材料等。尽管它很受欢迎,但鉴于其广泛使用,较少的关注来分析问题的固有硬度,重要的是要了解有效的全球优化算法的基本限制。在本文中,我们研究了有效的全球优化问题的最严重的复杂性,并且与现有的内核特异性结果相反,我们得出了一个统一的下限,以根据球的度量熵的指标,以实现有效的全局优化的复杂性在相应的繁殖内核希尔伯特空间〜(RKHS)中。具体而言,我们表明,如果存在确定性算法,该算法在$ t $函数评估中实现了任何函数$ f \ in s $ in s $ f \ in $ t $函数评估的次优差距,则有必要至少是$ \ omemega \ left(\ frac {\ log \ mathcal {n}(s(s(\ Mathcal {x})),4 \ epsilon,\ | \ | \ cdot \ cdot \ | _ \ iftty)} {\ log(\ frac {\ frac {r} {r} {\ epsilon {\ epsilon })}} \ right)$,其中$ \ mathcal {n}(\ cdot,\ cdot,\ cdot)$是覆盖号码,$ s $是$ 0 $ $ 0 $,RKHS中的RADIUS $ r $,并且$ s(\ mathcal {x})$是可行套装$ \ mathcal {x} $的$ s $的限制。此外,我们表明,这种下限几乎与常用平方指数核的非自适应搜索算法和具有较大平滑度参数$ \ nu $的垫子\'ern内核所获得的上限匹配,最多可替换为$ $ $ d/2 $ by $ d $和对数项$ \ log \ frac {r} {\ epsilon} $。也就是说,我们的下限对于这些内核几乎是最佳的。
translated by 谷歌翻译
布局生成是计算机视觉中的一项新任务,它结合了对象本地化和美学评估中的挑战,在广告,海报和幻灯片设计中广泛使用。准确而愉快的布局应考虑布局元素内的内域关系以及布局元素与图像之间的域间关系。但是,大多数以前的方法只是专注于图像 - 范围 - 不平衡的布局生成,而无需利用图像中复杂的视觉信息。为此,我们探索了一个名为“图像条件的布局生成”的新颖范式,该范式旨在以语义连贯的方式将文本叠加层添加到图像中。具体而言,我们提出了一个图像条件的变分变压器(ICVT),该变形变压器(ICVT)在图像中生成各种布局。首先,采用自我注意的机制来对布局元素内的上下文关系进行建模,而交叉注意机制用于融合条件图像的视觉信息。随后,我们将它们作为有条件变异自动编码器(CVAE)的构件,表现出吸引人的多样性。其次,为了减轻布局元素域和视觉域之间的差距,我们设计了一个几何对齐模块,其中图像的几何信息与布局表示形式对齐。此外,我们构建了一个大规模的广告海报布局设计数据集,并具有精致的布局和显着图。实验结果表明,我们的模型可以在图像的非侵入区域中自适应生成布局,从而产生和谐的布局设计。
translated by 谷歌翻译
尽管发展了排名优化技术,但点式模型仍然是点击率(CTR)预测的主导方法。它可以归因于点式模型的校准能力,因为可以将预测视为点击概率。在实践中,通常还以排名能力来评估CTR预测模型,基于排名损失(例如,成对或列表损失)的预测模型通常比点置损失更好。先前的研究已经实验了两种损失的直接组合,以从损失中获得收益并观察到改善的性能。但是,先前的研究将输出logit的含义作为点击率,这可能会导致次优的解决方案。为了解决这个问题,我们提出了一种可以共同优化排名和校准能力的方法(简称JRC)。 JRC通过将样品的logit值与不同的标签进行对比,并约束预测概率是logit减法的函数,从而提高了排名能力。我们进一步表明JRC巩固了对逻辑的解释,其中逻辑在其中建模关节分布。通过这样的解释,我们证明JRC近似优化了上下文化的混合歧视生成目标。公共和工业数据集以及在线A/B测试的实验表明,我们的方法提高了排名和校准能力。自2022年5月以来,JRC已被部署在阿里巴巴的展示广告平台上,并获得了显着改进的绩效。
translated by 谷歌翻译
如图1所示,光学特征识别(OCR)技术已在各种场景中广泛使用。设计实用的OCR系统仍然是一项有意义但具有挑战性的任务。在以前的工作中,考虑到效率和准确性,我们提出了实用的超轻型OCR系统(PP-OCR)和优化的版本PP-OCRV2。为了进一步提高PP-OCRV2的性能,本文提出了更强大的OCR系统PP-OCRV3。 PP-OCRV3基于PP-OCRV2的9个方面升级了文本检测模型和文本识别模型。对于文本检测器,我们引入了一个带有大型接收场LK-PAN的锅模块,该模块是一个名为RSE-FPN的剩余注意机制的FPN模块和DML蒸馏策略。对于文本识别器,基本模型将从CRNN替换为SVTR,我们介绍了轻量级文本识别网络SVTR LCNET,通过注意力进行CTC的指导培训,数据增强策略TextConaug,由自我审查的TextRotnet,UDML和UDML和UDML和UDML和更好的预培训模型。 UIM加速模型并改善效果。实际数据上的实验表明,在可比的推理速度下,PP-OCRV3的Hmean比PP-OCRV2高5%。上述所有上述型号都是开源的,并且代码可在由PaddlePaddle供电的GitHub存储库Paddleocr中可用。
translated by 谷歌翻译
在本文中,我们研究了为给定图像生成高质量视觉文本演示设计的图形布局生成问题。我们注意到,不仅包含全局语义和空间信息的图像组成在很大程度上会影响布局结果。因此,我们提出了一个深层生成模型,称为组成感知图形布局GAN(CGL-GAN),以基于输入图像的全局和空间视觉内容来合成布局。为了从已经包含手动设计的图形布局数据的图像中获取训练图像,先前的工作建议将设计元素(例如文本和点缀)作为模型输入,这不可避免地会留下地面真相的提示。我们研究训练输入(带有提示掩码)和测试输入(没有掩模)之间的错位,并设计一个新型的域比对模块(DAM)以缩小此间隙。为了培训,我们构建了一个大规模布局数据集,该数据集由60,548张广告海报组成,并带有带注释的布局信息。为了评估生成的布局,我们根据美学直觉提出了三个新型指标。通过定量和定性评估,我们证明了所提出的模型可以根据图像组成合成高质量的图形布局。
translated by 谷歌翻译
考虑了建立UNKONWN地面真相函数值的样本外界限的问题。内核及其相关的希尔伯特空间是本文所采用的主要形式主义,以及一个观察模型,在该模型中,输出被有限的测量噪声损坏。噪声可以源于任何紧凑的分布,并且没有对可用数据进行独立假设。在这种情况下,我们显示计算紧密的,有限样本的不确定性范围等于求解参数四次约束线性程序。接下来,建立了我们方法的属性,并研究了其与另一种方法的关系。提出了数值实验,以说明如何在许多情况下应用理论,并将其与其他封闭形式的替代方案进行对比。
translated by 谷歌翻译